Robustes Chunkparsing mit variabler Analysetiefe
نویسندگان
چکیده
Das Chunkparsing [1], [2] bietet einen besonders vielversprechenden Ansatz zum robusten, partiellen Parsing mit dem Ziel einer breiten Datenabdeckung. Ziel beim Chunkparsing ist eine partielle, nicht-rekursive syntaktische Struktur. Dieser extrem effiziente Parsing-Ansatz läßt sich als Kaskade endlicher Transducer realisieren. In diesem Beitrag wird TüSBL vorgestellt, ein System, bei dem die Eingabe aus spontaner, gesprochener Spache besteht, die dem Parser in Form eines Worthypothesengraphen aus einem Spracherkenner zur Verfügung gestellt wird. Chunkparsing ist für eine solche Anwendung besonders geeignet, da es fragmentarische oder nicht wohlgeformte Äußerungen robust behandeln kann. Des weiteren wird eine Baumkonstruktionskomponente vorgestellt, die die partiellen Chunkstrukturen zu vollständigen Bäumen mit grammatischen Funktionen erweitert. Das System wird anhand manuell überprüfter Systemeingaben evaluiert, da sich die üblichen Evaluationsparameter hierfür nicht eignen. * Die vorliegende Arbeit wurde im Rahmen des Verbundvorhabens Verbmobil vom Bundesministerium für Bildung, Wissenschaft, Forschung und Technologie (BMBF) unter dem Förderkennzeichen 01 IV 701 M0 und von der Deutschen Forschungsgemeinschaft im Rahmen des Sonderforschungsbereich 441 gefördert. Die Verantwortung für den Inhalt der Arbeit liegt bei den Autoren. 1 Einleitung Die gegenwärtige Forschung zum Parsen natürlicher Sprache ist vom Spannungsfeld zwischen flacher bzw. partieller Strukturanalyse (mit dem Ziel einer breiten Datenabdeckung) einerseits und tiefer und möglichst vollständiger Strukturanalyse (unter Inkaufnahme einer engen Datenabdeckung) andererseits gekennzeichnet. Das Chunkparsing [1], [2] stellt einen viel diskutierten und besonders erfolgversprechenden Ansatz für das effiziente Parsen großer Textmengen mit breiter Datenabdeckung dar. Die Strategie des Chunkparsing besteht darin, die Analyse nicht-rekursiver Teilkonstituenten vom Parsen größerer, rekursiver syntaktischer Einheiten zu separieren. Dies ermöglicht eine effiziente Chunkparsingarchitektur als Kaskade endlicher Transducer mit rightmost, longest-match Strategie [2]. Die bisherige Literatur zum Chunkparsing weist jedoch drei Lücken auf: • Bisherige Studien zum Chunkparsing gehen von schriftsprachlichen Textkorpora als Eingabeketten aus. Zusätzliche Schwierigkeiten ergeben sich, wenn es sich bei der Eingabe um die von einem akustischen Spracherkenner verarbeiteten Worthypothesen spontansprachlicher Äußerungen handelt. • Es gibt bisher keine Untersuchungen darüber, wie partielle Chunkanalysen zu Strukturanalysen chunkübergreifender, rekursiver syntaktischer Einheiten miteinander verbunden werden können. • Es liegen bislang keine quantitativen Studien darüber vor, welche Datenabdeckung mit dem Chunkparsing erzielt werden kann. Ziel dieses Beitrags ist es, diese Forschungslücken zu schließen und das System TüSBL (Tübingen Similarity Based Learning) vorzustellen. Den Forschungskontext der hier beschriebenen Studie bildet das BMBF Verbundprojekt Verbmobil, das die maschinelle Übersetzung spontansprachlicher Äußerungen zwischen den Sprachen Deutsch, Englisch und Japanisch zum Ziel hat. Die Anwendungsdomäne liegt in den Bereichen Terminvereinbarungen, Reiseplanung und PC-Wartung. Die nachfolgenden Beispiele sind daher aus dieser Anwendungsdomäne entnommen, die beschriebenen Techniken jedoch domänenunabhängig und generell anwendbar. 2 Parsing mit variabler Analysetiefe TüSBL wurde in einer dreistufigen Systemarchitektur angelegt, um ein effizientes und robustes Parsing zu ermöglichen. In den drei Stufen werden jeweils genau spezifizierte Teilprobleme angegangen: In der ersten Stufe wird das Part-of-Speech Tagging, d.h. die Zuweisung der Wortarten mittels des LIKELY-Taggers [5] durchgeführt; als Tagset dient das StuttgartTübingen-Tagset (STTS) [9]. Die so ermittelten POS Tags dienen als Eingabe für den Chunkparser [1], [2], der an die systemspezifischen Anforderungen angepaßt wurde. Die dort ermittelte Chunkstruktur dient dann als Eingabe in die Baumkonstruktion, wo die Chunkstrukturen soweit möglich zu kompletten Bäumen erweitert werden. Eine mangelnde Abdeckung in der Chunkoder in der Baumkonstruktionskomponente führt nicht zu einem Systemabbruch, die fragliche (Teil-)Struktur wird unverändert an die nächste Stufe weitergegeben. 2.1 Chunkparsing mit Spracherkenner-Input In natürlich-sprachlichen Systemen, deren Input aus gesprochener Sprache besteht, wird dem syntaktischen Parsing die automatische Erkennung von Einzelwörtern vorgeschaltet. Der Output des Spracherkenners für die Weiterverarbeitung in einer NLP Anwendung besteht üblicherweise aus einem Worthypothesengraphen. Der syntaktische Parser hat dann die Aufgabe, aus diesem Graphen die gemäß einer zugrundeliegenden Grammatik beste Hypothese für die Gesamtstruktur der Äußerung zu ermitteln. Im Falle von Verbmobil werden aus dem Worthypothesengraphen, den der Spracherkenner liefert, die nbesten Ketten von Worthypothesen für die Gesamtäußerung gebildet und dem Chunkparser als Eingabeketten zur Verfügung gestellt. Diese n-besten Ketten sind mit all jenen Fehlerquellen behaftet, die für akustische Spracherkenner tpyisch sind: das fehlerhafte Einfügen oder "Verschlucken" von kurzen Wörtern aus geschlossenen Wortklassen (z.B. Präpositionen, Artikel, Interjektionen), das "Verschlucken" von gebundenen Morphemen bzw. das fehlerhafte Abbilden von unbekannten Wörtern auf bekannte Wörter. Ein typisches Beispiel einer derartig fehlerbehafteten Satzhypothese aus der Verbmobildomäne ist die Zeichenkette ich könnte Ihnen ja aber zum Beispiel ein Dienstag mich den zwölften anbieten, in der die Wörter ein und mich vom Spracherkenner eingefügt worden sind. Trotz des fehlerhaften Inputs gelingt es dem Chunkparser, eine partielle Analyse zu liefern: Eingabe: ich könnte Ihnen ja aber zum Beispiel ein Dienstag mich den zwölften anbieten Chunkausgabe: [simpx [nx2 [pper ich]] [vxfin [vmfin könnte]] [nx2 [pper Ihnen]] [ptkant ja] [advx [adv aber]] [px [appr zum] [nx2 [nn Beispiel]]] [nx3 [art ein] [nx2 [nn Dienstag]]] [nx2 [pper mich]] [nx4 [art den] [adja zwölften]] [vvinf anbieten]] Wenn der Chunkparser eine fehlerhafte Hypothese zu verarbeiten hat, liefert er, wie im obigen Beispiel mehrere, lokal grammatische Teilstrukturen. Bei diesen Teilstrukturen handelt es sich um "islands of certainty'' im Sinne von Abney [2], die sich für die Weiterverarbeitung durch weitere Systemmodule (im Fall von Verbmobil: die semantische Analyse und die maschinelle Übersetzung) eignet. Ein Chunkparser liefert somit einen wichtigen Beitrag zu einem robusten Sprachverarbeitungssystem, das auch defizitären Input weiterverarbeiten kann. 2.2 Ähnlichkeitsbasierte Baumkonstruktion Die Baumkonstruktion basiert auf dem Lernverfahren des memory-based reasoning [10], das mit großem Erfolg auf diverse NLP Klassifikationsaufgaben angewandt worden ist, darunter POS Tagging, GraphemPhonem-Konvertierung, Wortbedeutungsdisambiguierung und PP Attachment [4], [12], [13]. Dieser Ansatz geht davon aus, daß die Verarbeitung aktueller Information durch den Vergleich mit gespeicherter Information über andere, bereits gesehene Strukturen erfolgt. Es handelt sich dabei um "lazy learning" in dem Sinne, daß über gespeicherte Instanzen nicht wie in regel-basierten Systemen abstrahiert wird, sondern die Instanzen wie vorgefunden mit der aktuellen Eingabe abgeglichen werden. Im vorliegenden Fall besteht die Datengrundlage der bereits gesehenen Instanzen aus einer syntaktisch annotierten Baumbank [11], mit ca. 60.000 Bäumen. Das Ähnlichkeitsmaß für die Baumkonstruktion berechnet sich aus den vorkommenden 1 Die deutsche Baumbank ist in ca. 38.000 Dialogabschnitte (dialog turns) gegliedert, die jeweils aus einem oder mehreren Teilbäumen bestehen. TüSBL wurde für die Sprachen Deutsch und Englisch trainiert, für Englisch liegt eine Baumbank mit ca. 35.000 Bäumen vor [7]. Lexemen, den zugewiesenen POS-Tags, der Segmentierung in Chunks und der den Chunks zugewiesenen Kategorien. In den Fällen, in denen der Spracherkenner dem Chunkparser gute Hypothesen für eine syntaktisch wohlgeformte Gesamtstruktur liefert, lassen sich die gechunkten Teilstrukturen im weiteren Verarbeitungsschritt der Baumkonstruktion zu satzüberspannenden Gesamtstrukturen verbinden. Für die folgende Eingabekette, zum Beispiel, liefert der Chunkparser zunächst folgende Teilstrukturen: Eingabe: genau ich sehe grade der würde zurückfliegen von Hannover nach München um sechzehn Uhr fünf zum Beispiel
منابع مشابه
MORPH. Ein modulares und robustes Morphologieprogramm für das Deutsche in Common Lisp
1. Stammformeinträge: Die Kodierung flektierender Stämme beruht auf einer strikten Subkategorisierung der Flexionsparadigmen. Die Zuordnung eines Stammes zu seinem Flexionsparadigma geschieht, indem im Lexikoneintrag ein eindeutiges Flexionsklassenkürzel zugewiesen wird, das als Pointer in das Flexivlexikon fungiert. Bsp.: (TISCH (M3)) Stammformund Vollformlesarten werden innerhalb eines Eintra...
متن کاملSIPBILD - Mimik- und Gestikerkennung in der Mensch-Maschine Schnittstelle
Für eine natürliche Mensch-Maschine Interaktion spielt die Interpretation visueller Informationen eine zentrale Rolle. Fehlende Kontrolle der UmgebungsbedingungenwieHelligkeit undHintergrundfarbe stellt hoheAnforderungen an dieBilderkennungssoftware. SIPBILD schafft es, mit modellbasierter Bildinterpretation die menschliche Mimik und Gestik zu erkennen. Um diese Technik in natürlichen Umgebunge...
متن کاملHandhabung von Varianz in Simulink aus funktionsorientierter Sicht
Aufgrund der steigenden Zahl softwarebasierter Funktionen kommt in der Automobilindustrie der baureihenübergreifenden Wiederverwendung dieser Funktionen und der damit verbundenen Handhabung von Varianz eine essentielle Bedeutung zu. In den Entwicklungsbereichen existieren für die modellbasierte Softwareentwicklung mit Simulink erste Ansätze zur Handhabung von Varianz auf Basis elementarer Simul...
متن کاملNetworked Control Systems with Time-Varying Delay - Stability through Input-Output Transformation
Angesichts steigender Komplexität moderner Automatisierungssysteme gewinnen Netzwerkregelungssysteme wegen ihrer Modularität und vereinfachten Diagnose mehr und mehr an Bedeutung. In derartigen Systemen sind Prozess und Regler räumlich getrennt und über ein Kommunikationsnetz verbunden. Die dadurch induzierte Kommunikationstotzeit wirkt potenziell destabilisierend. In diesem Artikel wird eine n...
متن کاملFarbkodierte objektangepasste Streifenprojektion für die schnelle 2D- und 3D-Qualitätsprüfung Color-coded Object-adapted Fringe Projection for Two- and Threedimensional Quality Control
Die Kontrolle von Werkstücken hinsichtlich ihrer dreidimensionalen Geometrie und ihrer Oberflächencharakteristik ist von entscheidender Bedeutung für die automatisierte industrielle Produktion. Vorgestellt wird ein schnelles und robustes Einzelbildverfahren, das es gestattet, gleichzeitig die Topographie zu kontrollieren und ein Videobild des Werkstückes zu generieren. Hierzu wird eine objektan...
متن کامل